Dispense del corso di Linguaggi Formali e Aut 



Marco Alfieri, Matteo Bianchi, Grazia D'Aversa, Andrea Fumagalli, 
Emanuele Mornini, Dario Villa, Massimo Vitali 

8 settembre 2002 



Appunti tratti dalle lezioni 
tenute dal prof. M. Goldwurm 
nell'anno accademico 2001/2002 



i 



INDICE ii 

Indice 

1 Nozioni di base 1 

1.1 Introduzione e prime definizioni 1 

1.2 Linguaggi e relative operazioni 3 

1.3 Semigruppo, Monoide e Semianello 5 

1.4 Funzione coppia 5 

2 Linguaggi formali e grammatiche 7 

2.1 Linguaggi ricorsivi e ricorsivamente numerabili 7 

2.2 Grammatiche 9 

2.3 Tipi di grammatiche 11 

2.3.1 Grammatiche dipendenti da contesto 11 

2.3.2 Grammatiche libere da contesto 11 

2.3.3 Grammatiche regolari 13 

2.4 Ricorsivita e parola vuota 13 

3 Linguaggi regolari 16 

3.1 Automa a stati finiti 16 

3.1.1 Rappresentazione grafica di un automa 17 

3.2 Lemma di iterazione 19 

3.3 Automi non deterministici 20 

3.4 Automi e linguaggi regolari 22 

3.5 Automa minimo 24 

3.6 Proprieta di chiusura (rispetto alle operazioni sui linguaggi) 26 

3.7 Teorema di Kleene 28 

4 Linguaggi liberi da contesto 31 

4.1 Forma normale di Chomsky 31 

4.1.1 Eliminazione delle variabili inutili 33 

4.1.2 Eliminazione delle produzioni unitarie 34 

4.1.3 Costruzione della grammatica in forma normale di Chomsky 35 

4.2 Derivazioni leftmost 35 

4.3 Algoritmo CYK 36 

4.4 Lemma d'iterazione 38 

4.5 Automa a pila 42 

4.5.1 Automi a pila deterministici 45 



1 NOZIONI DI BASE 



1 



1 Nozioni di base 

1.1 Introduzione e prime definizioni 

Fra le strutture matematiche utilizzate nell'ambito dell'informatica, i linguaggi formali svolgono 
un ruolo particolarmente importante. In questa sezione introduciamo alcuni concetti relativi ai 
linguaggi ed alle principali operazioni che nel seguito avremo occasione di utilizzare. 

Definizione 1.1 Un alfabeto e un insieme finito di simboli (es. lettere) che indicheremo con E. 

Esempio. £ = {0,1} A = {a,b,c} fl = {a, b, . . . , z} P = {(,),[,]} 

Definizione 1.2 Una parola e una concatenazione di simboli appartenenti ad un alfabeto E, op- 
pure la parola priva di simboli che denotiamo con e e che chiameremo parola vuota. 
Rappresentiamo con E* Vinsieme di tutte le parole su E, mentre E + denota Vinsieme E* — {e}. 

Esempio. Dato l'alfabeto E = {a, b, c,d} x = aababc e y = dacadc sono due parole 
costruite con simboli di E. 

Esempio. {a, b, c}* = {e, a, b, c, aa, ab, ac, bb, . . .} {a, b, c} + = {a, b, c, aa, ab, ac, bb, be, ... } 

Definizione 1.3 La lunghezza di una parola x e il numero di occorrenze di simboli che com- 
pongono x. Se x e una parola suT,, \x\ denota la sua lunghezza. Per definizione \e\ = 0. Quindi \ • \ 
denota una funzione che chiameremo funzione lunghezza di una parola e che e definita nel seguente 
modo: 

| ■ | : E* -» N. (1) 
Definizione 1.4 Un prefisso di x e una parola y G E* tale che x = yz per qualche z £ E*. 
Esempio. x = aabaca allora aab, aa, e, aabaca sono prefissi di x. 

Definizione 1.5 Un sufRsso di x e una parola y G E* tale che x = zy per qualche z G E*. 
Esempio. x = aabaca allora aca, ca, e, aabaca sono suffissi di x. 

Definizione 1.6 // fattore di x e una parola w G E* tale che x = ywz per qualche w,z G E*. 
Esempio. x = aabaca allora ab, bac, ac, e sono fattori di x. 

Definizione 1.7 Una sottoparola di x e una parola y G E* tale che 

1. x = aia2 • • • a n (aj G E, Vi) 

2. y = ajia j2 ■ ■ ■ a jm 1 < jl < j2 < . . . < n 

In altri termini, la parola y si deriva da x eliminando un numero di simboli h (0 < h < n) e 
mantenendo I'ordine dei simboli della parola di partenza. 

Esempio. E = {a, b, c, d, e) x = eabbacd y = eabed 



1 NOZIONI DI BASE 



2 



Definizione 1.8 Ordine lessicografico Ricordiamo innanzitutto che una relazione di ordine to- 
tale < su £ e una relazione binaria che gode delle seguenti proprieta: 

1. Va G S a < a, 

2. a,b e T, se a < b e b < a ^ a = b, 

3. a,b,c£Yisea<beb<c=>a<c, 

4- Va, o G £ a < 6 oppure b < a. 

Data la relazione di ordine totale < su S, chiamiamo ordine lessicografico S + /a relazione 
d 'ordine totale <l su S + tale c/ie: 



Vr, y G S + a; <£ y se 
x = uau e y = ubw dove < 



u,v,w G 
a, 6 G £ 
a < b e a^b 



oppure 
3z G £* ta/e c/ie xz = y 
(Quest 7 ultima, vale nel caso in cui x e prefisso di y) 

Esempio. 

x = bacb y = bacc x <l y 
x = bac y = bacd x <l y 

Definizione 1.9 Ordine militare (ranking): E' definito su £* e lo denotiamo con 

Vx,y G £* x < R y se : 
\x\ < \y\ 
oppure 
\x\ = \y\ e x < L y 



E' facile provare che per ogni alfabeto £, per ogni ordine totale < su £ e per ogni parola x G £ + , 
l'insieme {y G £ + : y <r x} e finite Quindi l'insieme delle parole che precede x e finite 

Definizione 1.10 Rank: E' la funzione rank: £* — > iV + , dowe iV + = N — {0}, ta/e c/ie per 05m 
x G £*, rank(x) rappresenta il numero di y G £* ta/i c/ie y x. 

Definizione 1.11 Unrank: E' la funzione unrank: N + — > £* c/ie e definita in modo tale che rank 
(unrank(n)) = n per ogni n G N. 
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1.2 Linguaggi e relative operazioni 

Linguaggio: Un linguaggio L definito suSeun sottoinsieme di E* ovvero L C E* . Ad esempio 

0, {e}, E, E* sono tutti linguaggi. 

Per ogni i,BCS* definiamo le seguenti operazioni: 

1. Unione: l'insieme AU B = {x <E T<* : x <E A oppure x G B}; 

2. Intersezione: l'insieme yln.E> = {xGE*:xG^4exG B}; 

3. Complementare: l'insieme A c = {x G E* : x ^ A}; 

4. Differenza: l'insieme -A\J3, denotato anche con A — B = {x^T l *: x^Aex^ B}; 

5. Prodotto: l'insieme A • fi = {x 6 S* : 3?/ G i, 3z £ B : x = yz} 

{a}-{a,b,c}* = {a,aa,ab,ac,aaa,aab,...} 
{a, 6, c}* • {6} = {b,ab,bb,cb,aab,aac, . . .} 



6. Potenza: per ogni linguaggio ACS* definiamo A = {e}, A 1 = A, A 2 = A ■ A, . . . , ovvero: 

VA: G TV, A k = < 



'{e} k = 

A k = 1 (2) 

A • A^" 1 /? > 1 



Questo significa che A k = {oj G E* : w = aict2 . . . «fc con aj € A, V« = 1, . . . , fe} per ogni k > 1. 

E 2 e l'insieme delle parole su E di lunghezza 2. 
E 3 el 'insieme delle parole su E di lunghezza 3. 

E fc e l'insieme delle parole su E di lunghezza k. 



1 NOZIONI DI BASE 



4 



al 



at 

r d 



ab 

7d~ 



abab 




all 


abed 






Ml: 111 




/ 


eded 


y 




\ 


/ 
/ 





ababab 



iilmlird 



nljrdnb 



nbcdf d 



rdabab 
cd»b<-d 



edtdab 



cicded 



rappresentazione dell'operazione potenza dell'insieme 
A = {ab, cd}. 



7. Operazione * : Unione di tutte le potenze di un linguaggio. Per ogni linguaggio A C T,* 
denotiamo con A* l'insieme delle sue potenze, ovvero 



A*=\J A k . 



(3) 



k=0 



Osserviamo che l'insieme delle parole in S coincide proprio con: 



k=0 



(4) 



8. Operazione + : Unione di tutte le potenze positive di un linguaggio. Per ogni A C 
definiamo 



oo 

A+=[J A k e quindi A + = A* - {e} 
k=i 



(5) 
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1.3 Semigruppo, Monoide e Semianello 

Definizione 1.12 Semigruppo: E' un insieme S dotato di una legge di composizione associativa 
che rappresentiamo con la coppia < S, >. 

Ricordiamo che una legge di composizione su S e una funzione che associa ad ogni coppia x, y £ 
S, un elemento x y G S. Per esempio < > e un semigruppo dove • e l'operazione di 

concatenazione tra parole. 

Osserviamo che l'operazione • e associativa, ma non commutativa; infatti per ogni x,y, z £ S* vale 
(x ■ y) ■ z = x ■ (y ■ z) ma in generale x ■ y e diverso da y ■ x. 

Definizione 1.13 Monoide: E' un insieme M dotato di un'operazione associativa e di un 
elemento unitario 1 rispetto a che denotiamo con la tripla < M, 0,1 >. 

Ricordiamo che per ogni x £ M, xQl = lQx = x. 

Esempio. L'insieme S* di tutte le parole forma il monoide <X*, -, e>. Questo e chiamato 
monoide libero su S. Questo monoide e detto libera perche ogni parola si ottiene in un solo modo 
come concatenazione di simboli dell'alfabeto; ovvero, data una parola formata da simboli, non e 
possibile riottenerla con simboli diversi o concatenando gli stessi in modo differente. 

Definizione 1.14 Semianello: E' un insieme S dotato di due operazioni +, ■ e dei due elementi 
neutri rispettivi 0, 1 tale che l'operazione + (somma) e associativa e commutativa, l'operazione • 
(prodotto) e associativa e valgono le leggi distributive della somma rispetto al prodotto. Tale struttura 
si rappresenta con la notazione < S, +, -, 0, 1 >. 

Esempio. 

<P(£*),U,-,0,{ £ }> 
Dove denotiamo con -P(£*) la famiglia di tutti i sottoinsiemi di £*. Osserviamo che: 

1. {AUB)-C= (A-C)U(B-C), 

2. A- (BUC) = (A- B)U(B -C). 

e che il prodotto di linguaggi non e commutativo. 

1.4 Funzione coppia 

La funzione coppia stabilisce una corrispondenza biunivoca tra coppie di elementi e l'insieme dei 
numeri naturali. 

Per semplicita consideriamo il caso di coppie di numeri appartenenti ad N + anche se in realta questa 
funzione puo essere estesa ad una qualsiasi coppia di elementi. Rappresentiamo sui due lati di una 
matrice infinita rispettivamente i due insiemi N + che descrivono i possibili elementi della coppia 
(Fig. 2). 
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A questo punto la numerazione delle coppie di elementi viene effettuata diagonalizzando a com- 
inciare dal primo elemento in alto a sinistra (1) e proseguendo con la posizione immediatamente 
sotto (2) e continuando a numerare seguendo la diagonale ascendente (3), e cosi via... 
In questo modo, ad ogni coppia di elementi x, y £ N + viene associato un numero naturale che 
denotiamo proprio con l'espressione (x,y). In questo modo abbiamo definite una corrispondenza 
biunivoca: 

(, ) : N + x N + -» N + 

che chiamiamo funzione coppia. Notiamo che 1' n-sima diagonale contiene n elementi, quindi per 
trovare l'elemento maggiore di ciascuna basta fare la somma dei primi n numeri naturali (come in 
fig. 2, 15 = 1+2+3+4+5). Per trovare il valore della coppia (x,y), dobbiamo conoscere il massimo 
elemento k della diagonale precedente e sommargli poi la coordinata y (come in fig. 2, 18 = 15+3). 
Per calcolare quindi k, sapendo che si trova sulla diagonale numero "x + y - 2" , dobbiamo sommare 
i primi "x + y - 2" numeri naturali. Per far cio utilizziamo la famosa formula di Gauss: 

£ fc= n(n_M) (6) 
k=l 

Formalizzando il tutto definiamo la funzione coppia in questo modo: 

*,veN+ (x,y)=t 1 £ 3 ) + y= {x + y - 2 f + v - 1) + « (7) 

Viceversa possiamo introdurre due funzioni sin e des definite su N + a valori in iV + tale che per ogni 
x, y £ N + se n = (x, y) allora sin(n) = x e des(n) = y. 



«• / n f Uk + 1) k(k + l) ) , 

Sm(n) = n- Max < -^-^ — '- : -^-^ — '- < n \ + 1 (8) 
Des(n) = Max \k : — + - < n\ - sin(n) + 2 (9) 
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2 Linguaggi formali e grammatiche 



Tra i concetti principali alia base dell'informatica, il concetto di linguaggio riveste un ruolo partico- 
larmente importante. Anche se da un punto di vista matematico un linguaggio e semplicemente un 
insieme di stringhe su un dato alfabeto, nelPambito delPinformatica siamo interessati a linguaggi, 
generalmente infiniti, le cui stringhe sono caratterizzate da qualche particolare proprieta: ad esem- 
pio, il linguaggio dei programmi C e costituito da tutte le stringhe di simboli che sono accettate da 
un compilatore C senza che venga rilevato alcun errore sintattico. Lo studio formale dei linguaggi e 
una parte importante dell'informatica teorica e trova applicazione in varie direzioni. La prima, piu 
evidente, e appunto lo studio delle proprieta sintattiche dei programmi, cioe lo studio dei metodi 
di defmizione della sintassi di un linguaggio di programmazione, dei metodi per la verifica che un 
programma soddisfi le proprieta sintattiche volute e dei metodi di traduzione da un linguaggio ad 
un altro (tipicamente da un linguaggio di programmazione ad alto livello al linguaggio macchina). 




2.1 Linguaggi ricorsivi e ricorsivamente numerabili 

Defmizione 2.1 Dato un alfabeto E diciamo che un linguaggio L C E* e ricorsivamente nu- 

merabile se esiste una procedura P che stampa tutte le parole di L. Denotiamo con RN I'insieme 
di tutti i linguaggi ricorsivamente numerabili. 

Defmizione 2.2 Un linguaggio L C E* e detto invece ricorsivo se esiste un algoritmo (procedura 
scritta in un qualunque linguaggio di programmazione che termina sempre) che su input x G E* 
restituisce il valore 1 se x € L, altrimenti 0. Diciamo inoltre che questo algoritmo riconosce L. 

Proposizione 2.3 Ogni linguaggio ricorsivo e ricorsivamente numerabile. 

Dimostrazione. Se L C E* e ricorsivo, allora esiste un algoritmo A che riconosce L e quindi 
possiamo definire la seguente procedura: 
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for xGE* (in ordine militare) do 
if x £ L then stampa x 

Tale procedura stampa tutte le parole di L e quindi L e ricorsivamente numerabile. 
Proposizione 2.4 Se L C S* e ricorsivo, allora L c e ricorsivo. 

Dimostrazione. Se esiste un algoritmo A che riconosce tutte le parole x £ L, invertendo i valori 
di output otteniamo un algoritmo per riconoscere L c . 

Proposizione 2.5 Per ogni L C S*,L £ i?iV se e so/o se esiste una procedura M (scritta in un 
qualunque linguaggio di programmazione) che su input i£E* soddisfa le seguenti proprieta: 

1. M si ferma se x £ L, 

2. M non si ferma se x £ L. 
Dimostrazione. 

• Se L e RN allora esiste una procedura P che stampa tutte le parole di L. 
Defmiamo allora la seguente procedura M: 

INPUT: 

begin 

r = no 
i = 1 

while r = no do 

y = i-esima parola stampata da P 
if y = x then r = si 

else i = i + 1 

return 1 

end 

Tale procedura soddisfa le condizioni 1. e 2. dell' enumerate. Diciamo anche che M e una 
procedura di semidecisione per il linguaggio L. 

• Viceversa, supponiamo che esista una procedura M che su input x G £* soddisfi le condizioni 
1. e 2. dell' enunciate e dimostriamo che L 6 RN. Definiamo quindi una procedura P: 

for n G N do 
i = sin(n) 
j = des(n) 
x = unrank(i) 

if M su input x termina esattamente in j passi then 
print x 

Si verifica facilmente che x £ L 44> x e stampato da P. Infatti se x £ L allora M su input x si 
ferma dopo k passi per qualche k; quindi quando n =< rank(x), k >, P stampa x. Viceversa 
se x £ L, M non si ferma mai su input x e quindi P non stampa x. Questo prova che il 
linguaggio L appartiene a RN. 
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Si puo inoltre provare che l'insieme dei linguaggi ricorsivamente numerabili e a sua volta numer- 
abile. Basta elencare le procedure di semidecisione associate: 

P 1 P 2 P 3 ... Pa ••• 

\- \r \r \f 

L\ L2 L3 ... L n ... 

Per la proposizione precedente tali procedure P±, P2, . ■ ■ , P n esistono sempre. Si puo provare anche 
che esistono procedure P\, P2, ■ ■ . , P n di semidecisione per L\, L2, ■ ■ . , L n . 

Proposizione 2.6 Esistono linguaggi ricorsivamente numerabili che non sono ricorsivi. 

Dimostrazione. Vogliamo dimostrare che esiste un linguaggio L G RN che non appartiene a R. 
Definiamo il linguaggio L tale che L = {x : x G L rank ^}. Denotiamo ora con x n la parola di £* 
tale che rank(x n ) = n; L risulta cosi formato da tutte le parole x n tale che x n G L n . Si verifica 
che L G i?iV, perche si puo costruire una procedura che stampa tutti i suoi elementi (si dimostri la 
proprieta per esercizio). 

Consideriamo ora A = L c = {x n : x n ^ L n }; se per assurdo A G RN esisterebbe k G N tale che 
A = Lfc. Ci chiediamo allora se x k G A e si verifica: 

se x fe G A x fc i L k 
se Xfe ^ A =>■ Xfc G Lfc 

e quindi non epossibile che un elemento appartenga ad ^4 e alio stesso tempo non vi appartenga. 
Abbiamo in questo modo dimostrato che A ^ RN . Quindi L G RN e non appartiene a R , in 
quanto il suo complementare yl non appartiene ad i? . Di conseguenza R e propriamente incluso in 
RN. 

La dimostrazione precedente mostra anche la seguente proprieta: 
Proposizione 2.7 RN non e chiuso rispetto al complemento. 



2.2 Grammatiche 

Intuitivamete una grammatica e un insieme di regole che definiscono un linguaggio. Nel nostro con- 
testo una grammatica e un sistema formale che consente di generare tutte le parole di un linguaggio. 
Una grammatica viene rappresentata da una quartupla G =< V, T,,S,P > nella quale: 

• V e un alfabeto di simboli chiamati variabili (es. {A, B, C, ...}), 

• Seun alfabeto di simboli chiamati terminali (es. {a, b, c, ...}) tale che S n V = 0, 

• S G V e un simbolo particolare detto simbolo iniziale di G, 

• P e un insieme finito di elementi detti produzioni. Ogni produzione e un'espressione della 
forma (a — ► (3) dove a, (3 G (V U £*), e inoltre a^£. 
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Questi sono due esempi di gramatiche: 

d =< {S}, {a, b}, S, {S aS6, 5 -»■ e} > 
G 2 =< {A, B, G, 5}, {a, 6, c, d}, S, P > 
P = {S -> ABC, A -► aAB, A^ a,BC ^ CB,B ^ BB, B^b,C c} 

Definizione 2.8 Data la grammatica G =< V,H,S,P > chiamiamo relazione di derivazione 
in un passo, la relazione tale che: 

i- =^g c (y us)* x (y u s)* 

2. Vx,y G (VU £)*, x ^ G y se 

• x = 7«5, 

• (a -► p) G P. 

dove a, (3, j, 6 G US)* 
Esempio. Sia G la grammatica definita nel secondo punto degli esempio precedente, allora 

AAaABC => G AaABaABC => G AaABaACB 
dove A — > ayl-B e i?G — > G.B sono le produzioni applicate. 

Definizione 2.9 La relazione di derivazione => G , e la chiusura riflessiva e transitiva di =^g 

1. x £ (V US)* x =>*j x 

2. Vx, y (con x / y) G (V U S)* x =^*j y se 

3ai, «2 • • • a ra G (V U S)* : ai 02-.. =^g (con x = ct\ e y = a n ) 

Esempio. Continuando l'esempio precedente, si verifica che: 

S =^g ABC =^g aABBC =^g aaBBC =^g aaBCB =^g aaBBCB => G . . . => G aabbcb 

e quindi 
S =^ G aabbcb 

Definizione 2.10 Ogni grammatica G =< V,T,,S,P > genera il linguaggio cosi definito 

L(G) = {x G S* : S =>* G x} (10) 
Esempio. Consideriamo i seguenti esempi: 
1. L = {x = a n b n : n G N+} 

Gi =< {S, A, B}, {a, b}, S, {S AB, AB AABB, A^a,B b} > 
G2 =< {S, }, {a, b}, S, {S — > ab, ab — > aaofe} > 
G 3 =< {5, }, {a, 6}, 5, {5 -► aSfe, 5 a6} > 



Gi, G2, G3 sono tre diverse grammatice che generano lo stesso linguaggio L. 
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2. L = {a, 6}* 

Una grammatica die genera questo linguaggio e 
G =< {S}, {a, 6}, S,{S -^e,S ->■ 65, S ^ aS} > 

3. L = {x = a n b n c n : n G N + } 

Una grammatica che genera questo linguaggio e 

G =< {S,A,B,C},{a,b,c},S,{S A£?C, 5 -»• AS5C,,4 a,CB -► BC,aB -»• a665 
66, 6C -> 6c, cC -> cc} > 

2.3 Tipi di grammatiche 

Le grammatiche vengono classificate a seconda del tipo di produzioni. Le grammatiche piu generali 
senza alcun vincolo sulle produzioni sono chiamate grammatiche di tipo 0. 

Teorema 2.11 La classe dei linguaggi generati dalle grammatiche di tipo coincide con la classe 
RN dei linguaggi ricorsivamente numerabili. 



2.3.1 Grammatiche dipendenti da contesto 

Una grammatica G =< V,T,,S,P > si dice dipendente da contesto (context-sensitive) se per ogni 
(a — ► 0) £ P verifica \a\ < \(3\ . Le grammatiche dipendenti da contesto vengono anche chiamate 
di tipo 1. 

Un linguaggio L C si dice dipendente da contesto (context-sensitive) se esiste una grammatica 
di tipo 1 che genera L. 

L'esempio 3 del paragrafo precedente, descrive una grammatica dipendente da contesto. 

2.3.2 Grammatiche libere da contesto 

Una grammatica G =< V,H,S,P > si dice libera da contesto (context-free) se P contiene solo 
produzioni della forma A — > (3 con A G V e (3 G (UUS) + . 

Le grammatiche dipendenti da contesto vengono anche chiamate di tipo 2. Un linguaggio LCE* 
si dice libero da contesto (context-free) se generato da una grammatica di tipo 2. 

Proprieta 2.12 Se un linguaggio L e libero da contesto allora L e dipendente da contesto. 

Esempio. La grammatiche G =< {S}, {a, 6}, S, {S — > aSb, S — >■ ab} > che genera il linguaggio 
L = {x = a n b n : n G N + }, e una grammatica libera da contesto. 

Definizione 2.13 Un albero di derivazione per una grammatica libera da contesto G = < V, S, S, 
P> e un albero ordinato con nodi etichettati da elementi di (V U H) tale che: 

• La radice e etichettata da S, 
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• / nodi interni sono etichettati da simboli in V, 

• Le foglie sono etichettate da simboli E S, 

• Se un nodo interno e etichettato da A G V e i suoi figli sono etichettati da x\, X2, ■ ■ ■ , xk G VU 
S, nell'ordine stabilito dall'albero, allora la produzione (A—*xi, x%, . . . , xk) e una produzione 
in P. 

La parola x G S + derivata dall'albero si ottiene considerando la sequenza delle etichette delle foglie 
(da sinistra verso destra) rispettando I'ordine delValbero. 

Esempio. Dalla grammatica G =< {S, A, B}, {a, b}, S, {S — > aB, S — > bA, A — ► aS, A — > a, A — ► 
bAA, B —> bS, B —>■ b, B —> aBB} > che genera il liguaggio L = {x G {a, b} + : \x\ a = \x\b}- 
Rappresentiamo tramite alberi di derivazione le seguenti parole: x = abbbabaa; x = bbaaab; x = 
bbaaba. 




S =>g aB =>• GabS =^g abb A => G 
abbbAA =>g=^g abbbAa =^g abbbaSa 
abbbabAa =5>g abbbabaa 



S =3-* n bbaaab 
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2.3.3 Grammatiche regolari 

Una grammatica G =< V, S, S, P > si dice regolare se ogni produzione in P e della forma 

'A -> a5 

< op-pure (11) 
A -> a 

dove A, B £ V a G £ 
Le grammatiche dipendenti da contesto vengono anche chiamate di tipo 3. 

Si dice regolare un linguaggio L C S + per il quale esiste una grammatica G di tipo 3 tale che 
L = L(G). 

Proprieta 2.14 Ogni linguaggio regolare e libero da contesto e non vale sempre il viceversa. 
Esempio. II liguaggio L = {i£ {a, b} + : \x\ a e pari} e generato dalla grammatica 

G =< {S, C}, {a, b}, S, {S -^bS,S -^aC,S -► 6, C -► bC, C -> aS, C -► a} > 



2.4 Ricorsivita e parola vuota 

Teorema 2.15 Ogni linguaggio dipendente da contesto e ricorsivo. 

Dimostrazione. Sia L C £* un linguaggio tale che L = L(G) per una particolare grammatica 
G =< V,T,,S,P > dipendente da contesto : ogni produzione in P e della forma (a — > /3) con 
> |a|. Dobbiamo definire un algoritmo (procedura che si ferma sempre) per il seguente problema: 

INPUT : x G S + |x| = n 



OUTPUT : 



1 se x G L 
se x ^ L 
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Definiamo per ogni k = 1, . . . , n l'insieme Tk tale che 

T K = {a G (V U £)+ : |a| < k, S a} se k > e con T = {S} 
Vediamo or a come si definisce l'algoritmo che risolve il nostro problema. 
T = {S} 

For k = 1 ... n do calcolo Tk a partire da Tk-i 
If x 6 T n then return 1 
else return 

Definiamo ora la procedura che calcola Tk a partire da Tk-\- 

V = Tk-i 
Repeat 

U = V 

for {jEU AND (a^ (3) e P AND (y, 2;, w) : 7 = yzu>} do 
if (z = a) AND \y(3w\ < k then 

y = V U {y/?w} 

until V = U 
return V 

Le definizioni precedenti descrivono grammatiche che non generano la parola vuota. E' pero pos- 
sibile estendere le definizioni precedenti considerando anche questo caso. A tale scopo introduciamo 
il seguente lemma. 

Lemma 2.16 Per ogni grammatica G =< V, S, S, P > esiste una grammatica F =< V , S, S', P' > 
tale che L(G) = L(F) e nella quale S' non compare nella parte destra di alcuna produzione in P' . 
Inoltre se G e dipendente da contesto (rispettivamente libero da contesto regolare) allora anche F 
e dipendente da contesto (rispettivamente libero da contesto regolare) 

Dimostrazione. Definiamo la grammatica F =< V', S, S', P' > tale che: 

• S' nuova variabile £ V, 

• p' = {S' ^ a: S ^ ae P}UP 

(oppure, piu semplicemente: P' = {S' — > S} U P), 

• V' = VU{S'}. 

Dimostriamo che L(G) = L{F). Proviamo che per ogni x G S* se S ^ G x allora S' => F x. Infatti 
esiste una catena di derivazione 

5 =^g oil ct 2 =^g ■ ■ ■ a n = x 

inoltre (S — > a±) G P implica 
(S' — ► a.\) G P 1 e quindi 
S' =^f ai =>f «2 =>F ■ ■ ■ a n = x che implica 

S' ^ F x. 
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Proviamo che per ogni x G S* se 5 x allora S" =^^. x. Infatti esiste una catena di derivazione 



S 1 =?f ai =^f 012 =^F ■ ■ ■ a n = x 

inoltre (S f — > a±) G P' implica 
(S 1 — ► ai) G P e quindi 
5 "1 =^G «2 =^G • • • =^G «n = £ cioe 



s' 



G 



X. 



Definizione 2.17 (Estensione delle precedenti, aggiungendo la possibilitd di creare e) 

1. G =< V, S, S, P > e dipendente da contesto se : 

• ogni produzione (a — ► /?) G P soddisfa 

'H < 1/31 
_ a = S 1 , /3 = e 

• (5 — > e) G P, 5* non compare in (3 per ogni (a — > /3) G P 

2. G = < V, S, 5, P > e libera da contesto se : 

• ogni produzione (a — ► /?) G P soddisfa 

a £ V, ^ e 
oppure 

K a = S, (3 = e 

• (S 1 — > £) G P, 5* non compare in (3 per ogni (a — > /?) G P 
5. G = < V, S, S 1 , P > e regolare se : 

• ogni produzione (a — ► /?) G P soddisfa 

' a £V, (3 = aB con a G S, P G F 

a £ V, (3 G E 
oppure 

k a = S, /3 = £ 

• (5 — > e) G P, 5* non compare in (3 per ogni (a — ► /3) G P 
Proposizione 2.18 . 

1. 5e L C S* e dipendente da contesto, allora L U {e} el - {e} sono dipendenti da contesto. 

2. 5e L C S* e libero da contesto, allora L U {£} e L — {£} sono /i5eri rfq contesto . 

3. Se L C S* e regolare, a/Zora L U {£} e L — {e} sono regolari. 
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3 Linguaggi regolari 

Tra i vari linguaggi che abbiamo analizzato nel capitolo precedente, quelli regolari (generati dalle 
grammatiche di tipo 3) sono particolarmente degni di attenzione per diversi motivi. Prima di tutto 
perche gli element! sintattici principali di un linguaggio di programmazione (costanti, identificatori, 
parole chiave, . . .) sono definibili generalmente con grammatiche di tipo 3. In secondo luogo, si puo 
mostrare che la classe dei linguaggi regolari gode di molte proprieta algebriche, sebbene le gram- 
matiche che li generano siano definite molto semplicemente. 

In questo capitolo definiremo prima di tutto gli automi a stati finiti, che vengono utilizzati per 
riconoscere i linguaggi generati dalle grammatiche di tipo 3, e successivamente discuteremo le 
principali proprieta dei linguaggi regolari. 

3.1 Automa a stati finiti 

Un automa a stati finiti e intuitivamente descritto da un sistema che puo assumere un insieme finito 
di stati, dotato di un nastro di ingresso, suddiviso in celle e di una testina di lettura. Inizialmente 
una stringa di ingresso formata da n simboli e disposta ordinatamente nelle prime n celle del nastro 
(un carattere per ogni cella) , la testina di lettura e posizionata nella prima cella e il sistema si trova 
in uno stato particolare detto stato iniziale. Ad ogni passo, a seconda dello stato e del simbolo letto, 
l'automa cambia stato e muove la testina di una posizione verso destra. 

Qui di seguito tratteremo automi a stati finiti deterministici e il caso piu generale degli automi a 
stati finiti non deterministici. 

Nel primo caso ad ogni mossa il nuovo stato e determinato univocamente dal carattere letto e dallo 
stato corrente. Nel caso non deterministico, invece, l'automa sceglie il nuovo stato in un insieme di 
possibili celle sempre dipendenti dal simbolo letto e dallo stato corrente. 

Stati 



Ttsliim 



'■1 


a a 


oa 

























Nretro i midi rcz ion ale 



Diamo ora la definizione formale. 

Definizione 3.1 Un automa a stati finiti deterministico sull'alfabeto E e una quartupla cost 
definita: A = < Q, qo, 5, F > dove: 

• Q e un insieme finito di stati, 

• Qo G Q e lo stato iniziale, 

• 5 e la funzione di transizione tale che \/q G Q, Vo G E, 6(q, a) G Q : Q x E — > Q, 



Q 

6 
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• F C Q e Vinsieme degli stati finali. 

Estendiamo la definizione della funzione di transizione 5, ponendo 

• ?:QxS*^Q dove 

• S(q,e) = q Vg G Q, 

• S(q,xa) = 5((q,x),a) VsGE,VaGE. 

Quindi il linguaggio riconosciuto daie l'insieme L(A) = {x G X* : 5(^0,^) G -F 1 } 
3.1.1 Rappresentazione grafica di un automa 

L'automa A =< Q, qo, 5,F > puo essere rappresentato da un grafo orientato con etichetta sui lati, 
nel quale: Q e l'insieme dei nodi e per ogni q,p £ Q e ogni a £ S, esiste un lato da q a p etichettato 
con a se 5(q, a) = p. Denotiamo inoltre con una freccia entrante lo stato iniziale e con un doppio 
cerchio gli stati finali. 

Esempio. Dato l'automa qui di seguito rappresentato, definito sull'alfabeto £ = {a, b, c} 




a>b s c 

II linguaggio riconosciuto dall'automa e cosi definito: 

{e} U {6} • £+ U {a} ■ {a, b}* ■ {c} ■ 
Esempio. Fissato l'alfabeto S ={a, b, c}, consideriamo il linguaggio 

L = {x G {a, b, c}* : x = ybabbz, y,z G S*} (quindi L = Y,*babbYf). 
Rappresentiamo graficamente l'automa che lo riconosce: 
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Esempio. Date il linguaggio L(A) = {a}* .{bb}.{c}* definite sulPalfabeto S = {a, b, c} , l'automa 
che lo riconosce e: 
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a,b,c 



Definizione 3.2 Si dice che un linguaggio LCE* e riconoscibile se esiste un automa a stati finiti 
(deterministico) A =< Q,qo,5,F > su £ tale che con L = L(A). 



3.2 Lemma di iterazione 

II linguaggio L = {a n b n : n G N} non e riconoscibile tramite un automa a stati finiti, perche il suo 
funzionamento richiederebbe una quantita infinita di memoria (per ricordare il numero di a letti 
durante il calcolo). 

E' abbastanza facile intuire che il L = {a n b n : n G N} non e riconoscibile: per assurdo esista 
A =< Q,qo,5,F > che riconosce L e sia k= #Q (numero di stati). Consideriamo la stringa a k b k . 
La computazione di A su tale input puo essere descritta dal seguente diagramma: 




k+1 stati 



Essendoci solo k stati si deve necessariamente formare un ciclo. Quindi si riconoscono parole non 
appartenenti al linguaggio non essendoci un limite al numero di volte che un ciclo puo essere ripetuto. 
Di conseguenza A non puo riconoscere L. Altri esempi di linguaggi non riconoscibili: 

Li = {x G {a,b}* : \x\ a = \x\ b } (12) 

L2 = {x G {(, )}* : x e una sequenza di parentesi correttamente innestate} (13) 

II lemma di iterazione sostanzialmente dice che ogni stringa sufficientemente lunga appartenente 
ad un linguaggio regolare, ha una struttura che mostra delle regolarita, o meglio, contiene una 
sottoparola che puo essere ripetuta quanto si vuole, ottenendo sempre stringhe del linguaggio. 
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Teorema 3.3 (lemma d'iterazione per i linguaggi regolari). 

Per ogni linguaggio riconoscibile L C E* , esiste un n > tale che Vx G L se \x\ > n, esistono 
u,v, z G X* toZe c/ie: 

• x = 

• \uv\ < n, 

• M > 1, 

• Vk £ N uv k z G L. 

Esempio. L = {x G {a, 6}* : |x| a = 2 mod (3)} 




o 

b 

3.3 Automi non deterministici 

Definizione 3.4 E/n automa a stati finiti non deterministico sull'alfabeto £ e una quartupla 
A = < Q,q ,5, F > dove: 

• Q e un insieme finito di stati, 

• qo £ Q e lo stato iniziale, 

• 5 e la funzione di transizione cosi definita 5 : Q x £ — > P(Q), 

• F C Q sottoinsieme degli stati di Q, chiamato insieme degli stati finali. 

Estendiamo la definizione della funzione 5: 

• ?:QxS* -► P(Q), 

• Vo G Q,6(q,e) = {q}, 

• Vi G S*,Va G S <5(g, xa) = [j S(p, a) p£5(q,x). 
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Allora il linguaggio riconosciuto dall'automa e l'insieme: 

L(A) = {x£Z* :5(q ,x)nF^(b}. 

Osservazione: Poiche l'automa e non deterministico, la macchina ha possibility di scelta, quindi 
una parola viene accettata se tra le varie scelte, ne esiste almeno una che lo porti in uno stato finale. 
Esempio. Dato il linguaggio 

L = {x € {a, b}* : x contiene il fattore bob oppure x termina con aa} 

l'automa che lo riconosce e: 




Si osservi che: 
8(q ,abbabb) = {qo,qz}, 
S(q ,babaa) = {<?o, <?3, 
5{q ,ba) = {q ,q2,q4}, 
5{q 5 a) = 0. 

Esempio. Un automa non deterministico che riconosce {a, 6, c}*{bb} e definito dal seguente 
diagramma: 



a ? b ? c 




Osserviamo che 5(q±, a) = 0. 
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I due tipi di automi che abbiamo dennito in questo capitolo (deterministico e non deterministico) , 
sembrebbero a prima vista riconoscere classi di linguaggi differenti, ma dimostriamo con il seguente 
teorema che questo non e vero. 

Teorema 3.5 Un linguaggio L e riconosciuto da un automa a stati finiti deterministico se e solo 
se L e riconosciuto da un automa a stati finiti non deterministico. 

Dimostrazione. 

Se L e riconosciuto da A =< Q,qo,S,F > deterministico allora L e riconosciuto da B =< 
Q,qo,5b,F > non deterministico, ponendo <5&(g, o) = {5(q, a)} per ogni q £ Q e per ogni 
a £ S. E' chiaro che i due automi si comportano in modo equivalente. 

Se L e riconosciuto da B =< Q, qo, <5^, F > non deterministico, allora definiamo A =< P(Q), {qo}, S a , F a > 
deterministico tale che P(Q) e l'insieme delle parti di Q, la funzione transizione S a e definita 
da 

5 a (T,a)=\JS b (p,a) VTeP(Q),Vae£ e F a = {T £ P(Q) : T n F ± 0} 
per 



3.4 Automi e linguaggi regolari 

II seguente teorema dimostra che la classe dei linguaggi regolari coincide con la classe dei linguaggi 
riconoscibili. 

Teorema 3.6 Un linguaggio L C T,* e riconoscibile se e solo se L e regolare. 

Dimostrazione. Sia per ipotesi L C S* riconoscibile, quindi esiste un automa A =< Q, qo, S,F > 
deterministico che riconosce L. 

Trattiamo il caso in cui qo ^ F (e quindi la parola vuota non appartiene al linguaggio riconosciuto 
dall'automa A). Consideriamo una grammatica G =< V, T,,S,P > nella quale poniamo: 

• l'insieme delle variabili V corrispondente alPinsime degli stati Q di A, 

• il simbolo iniziale S uguale alio stato iniziale qo, 

• l'insieme delle produzioni P = {q — > ap : p = S(q, a)} U {q — > a : S(q, a) £ F} 

In questo modo abbiamo dennito tutte le produzioni q — > ap dove q e p rappresentano lo stato 
prima e dopo aver letto a, insieme alle produzioni della forma q — > a nel caso in cui la transizione 
porti in uno stato finale. Cosi, se una parola x = a\02 ■ ■ ■ a n appartiene al linguaggio L, esisteranno 
gli stati q\q2 ■ ■ ■ q n con q n G F tali che 5{qo,a\) = q±, . . . ,5(q n -i,a n ) = q n , ed esisteranno quindi 
le produzioni qo — ► a±q±,qi — > a2q2, Qn-i o-n con le quali possiamo generare la parola x. 
Abbiamo cosi dimostrato che se x appartiene ad L allora x appartiene anche al linguaggio generato 
dalla grammatica G, definita come sopra, che e proprio una grammatica regolare (di tipo 3). 
Consideriamo invece ora il caso in cui qo £ F (il linguaggio rionosciuto dall'automa A contiene la 
parola vuota). Costruiamo cosi la grammatica G\ =< V', S, <S", P' > nella quale di nuovo ci sono: 

• S' che e un simbolo non appartenente a Q, 
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• V = Q U {S'}, 

• l'insieme delle produzioni P' = P U {S' — > e} U {S" — > a : go — ► a £ P} 

Definendo la grammatica in questo modo si puo anche produrre la parola vuota che e contenuta in 
L. 



Esempio. 



b 



a 




q J— ^ ^f r ) = >.( . ^ " 





Partendo dall'automa sopra rappresentato, costruiamo le produzioni della grammatica G (regolare) 
che genera il linguaggio L riconosciuto dall'automa: 

P = {q — > aq, r — > br, s — > bt,t — > at, (7 — > 6r, r — > as, s — > 6, t — ► 6t, t — > a,t — > 6}. 

Assumiamo ora invece per ipotesi che L sia un linguaggio regolare, e quindi esiste una gram- 
matica regolare G =< V, S, 5, P > che lo genera. Trattiamo ancora il caso in cui e ^ L (la parola 
vuota non appartine al linguaggio). Costruiamo un automa A =< Q, oq, S,F > nel quale: 

• l'insieme degli stati Q e V U {/}, 

• l'insieme degli stati finale F e {/}, 

• lo stato iniziale oq coincide con S 

• definiamo la funzione transizione 5 come segue: 



\/A £ V, VoeS S(A, a) = 



{B eV : A^ aB G P} se (A -► a) ^ P 

{f}U{B eV : A^ aB e P} se (A ^ a) £ P 

S(f,a) = Q 

Osserviamo che l'automa definite e non deterministico. 

Possiamo ora affermare che se x e una parola appartenente al linguaggio generato dalla grammatica 
regolare G, allora x appartiene anche al linguaggio riconosciuto dall'automa A da noi costruito. 
Questo perche se x = a\a 2 ■ ■ ■ a n , allora esisteranno A\, A 2 , ■ . ■ , A n -\ G V e una derivazione della 
forma: 

S — ► a\Ai — ► aia 2 A 2 — > 010203^3 



Ma questo implica che: 
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A x G 5(5, ai) 
A 2 G 5{A 1 ,a 2 ) 

A n _i G 5(^4 n -2, a n _i) 
/ G 8{A n - 1 ,a n ) 

e quindi / G S(S,x); di conseguenza x e riconosciuta dall'automa. 



3.5 Automa minimo 

Un linguaggio puo essere riconosciuto da automi diversi. Uno di questi e chiamato automa minimo 
perche riconosce il linguaggio con un numero minimo di stati. Per potere mostrare quanto detto 
introduciamo le seguenti defmizioni e proposizioni. 

Definizione 3.7 Relazione di equivalenza R su un insieme S: e una relazione binaria su S che 
soddisfa le seguenti proprieta: 

1. per ogni x G S xRx (proprieta riflessiva), 

2. per ogni x,y G S xRy implica che yRx (proprieta simmetrica), 

3. per ogni x,y,z G S xRy,yRz implica che xRz (proprieta transitiva). 

Ricordiamo che, data una relazione di equivalenza R su un insieme 5, per ogni x G S si puo 
considerare la classe di equivalenza rappresentata da x, cioe l'insieme 

Nil = {y e 5 : xRy} 

che contiene tutti gli elementi di 5 equivalenti ad x. E' evidente che l'insieme delle classi di 
equivalenza {[x]r : x G 5} rappresenta una partizione di S in sottoinsiemi disgiunti. 

Definizione 3.8 Invariante sinistro: e una relazione R su S, tale che R e di equivalenza e per ogni 
x,y, z G 5 , xRy implica zxRzy. 

Definizione 3.9 Invariante destro: e una relazione R su S, tale che R e di equivalenza e per ogni 
x,y,z G S,xRy implica xzRyz. 

Fissata una relazione di equivalenza R su E*, possiamo ripartire E* in classi di equivalenza. Sia 

^ = {[x] R : x G E*} 

Se R e invariante destro e sinistro di E* allora si defmisce l'operazione tale che per ogni x, y G 
E* [x]r0 [y]n = [xy]R. L'operatore 0su ^- e ben defmita perche non dipende dai rappresentanti, 
infatti se xRx' e yRy', allora 

W]r [v]r = [x'y]R = [xy] R = x'yRxy e [x] R [y') R = [xy'] R = [xy] R = xy'Rxy 
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perche R e invariante destro e sinistra. Per ogni relazione R invariante destra e sinistra di £*, si 
puo dimostrare che < 0, [e]n > e un monoide. Esso chiamato monoide quozionte di £* rispetto 
ad R. Si dice che R e di indice finite- se ^ e un insieme finite-. Piu in generale, l'indice di R e 
il numero di classi di equivalenza [x']r con x £ S*. Le proprieta degli automi a stati finiti sono 
legate alle relazioni sintattiche definite dai linguaggi su S. Per ogni linguaggio LCE* definiamo la 
relazione Rl tale che per ogni x, y £ T,,xRy se e solo se 

VzeS* xz £ L 4^ yz £ L 

Proposizione 3.10 Per ogra L C S* /a relazione Rl e un invariante destro. 

Dimostrazione. Si verificano le seguenti proprieta: 

• Rl e riflessiva; 

• i?L e simmetrica (perche la definizione e simmetrica tra x e y); 

• Rl e transitiva perche se xRLy, yRLW allora Vz, £ L se e solo se wz £ L e quindi x i?itu; 

• i?L e invariante destro infatti, per ogni x,y, z £ S* se xRLy allora Vu> G £*xzu> £ L <^ yzw £ 
L e quindi xzRLyz 

Notiamo che ogni automa a stati finiti produce una relazione di equivalenza che e anche invariante 
a destra. Questo risultato viene formalizzato nel seguente teorema. 

Teorema 3.11 Le seguenti proprieta sono equivalenti: 

1. L CE* e un linguaggio regolare, 

2. Esiste una relazione R' invariante a destra di indice finito tale che L e unione di alcune classi 
di equivalenza di R' , 

3. Rl e di indice finito. 
Dimostrazione. 

1. 2) Se L e un linguaggio regolare, allora esiste un automa a stati finiti deterministico 
A =< Qa, <7oS $a, Fa > che lo riconosce. Definiamo una relazione R' dove: 

Vx,ye£* xR'y^S(q£,x) = 5(q£,y). 

E' facile verificare che R' e una relazione di equivalenza. Inoltre R' e anche un invariante a 
destra perche: 

Vx, y, z £ £* 5(qQ, x) = %jf , y) S(qQ, xz) = S(qQ,yz). 

Infine R' e di indice finito perche l'indice e al piu il numero di stati dell'automa. Si verifica 
ora che L e l'unione delle classi di equivalenza che includono un elemento x tale che S(qQ,x) 
appartenga a Fa- 

2. =>■ 3) Sappiamo che xR'y. Essendo R' invariante destro, per ogni z £ T,,xzR'yz, e cosi yz 
appartiene a L se e solo se xz vi appartiene. Quindi xRLy- Abbiamo cosi dimostrato che 
xR'y implica xRLy. Quindi l'indice di R' e maggiore o uguale all'indice di Rl- Essendo R' di 
indice finito, anche Rl lo e. 



3 LINGUAGGI REGOLARI 



26 



3. => 1) Consideriamo xRlV- Ora prendiamo l'insieme delle classi di equivalenza di Rl e 
chiamiamolo Qm', sia [x] l'elemento di Qm che contiene x. Definiamo 5M([x],a) = [xa\. 
Questa definizione e ben posta perche Rl e invariante destro. Consideriamo q$f = [e] e 
Fm = {N | x G L}. L'automa a stati finiti M =< QmiQq 1 ,<$m, Fm > riconosce L perche 
6m (Qq 1 \ x ) = N) e cosl x appartiene al linguaggio riconosciuto da M se e solo se [x] sta in 
Fm- 

Osservazione . Se x G L e X-R^y allora y <E L. 

Teorema 3.12 Teorema dell'automa minimo. Per ogni linguaggio regolare L esiste (a meno 
di modificare il nome degli stati) un solo automa a stati finiti deterministico che riconosce L con il 
minimo numero di stati. 

Dimostrazione. Proviamo che l'automa M definite nella dimostrazione precedente e proprio il 
minimo per il linguaggio L che riconosce. 

Sia A =< Q, qo, 5, F > un qualsiasi automa deterministico che riconosce L tale che per ogni q £ Q, 
esiste w G S* tale che 5(qo, w) = q. Vogliamo dimostrare che esiste una funzione suriettiva / : Q —>■ 
Qm e vogliamo provare che: 

VqGQ, VaeS f(S(q, a)) = S M (f(q), a) 

Per ogni q £ Q scegliamo w G S tale che ^(go,^) = Q e definiamo f(q) = [w]Rl- La definizione e 
ben posta. Infatti se esiste y / w tale che S(qo, y) = q allora per ogni zeE* 5(qo, wz) = 5(qo, yz) 
e quindi: 

wz G L 44> yz G L =^ yRLW =^ [^]-Rl = M-Rl 
Inoltre la funzione / e suriettiva, infatti: 

V[w]R L G Q M 3g = <5(g ,^) G Q t.c. /(g) = [w]R L 

Infine / conserva le transizioni: per ogni a G S e per ogni g G Q, se /(g) = [w]R allora: 

f(5(q,a)) = [wa]R L = [w]R L [a)R L = 6 M (f(q),a) 

3.6 Proprieta di chiusura (rispetto alle operazioni sui linguaggi) 

1. Se L C e un linguaggio regolare, allora anche L c e un linguaggio regolare. Se L e regolare, 
allora esiste un automa deterministico A =< Q,qo,5,F > che riconosce L e quindi B =< 
Q, go, (5, Q — F > e un automa deterministico che riconosce L c . 

2. Siano J C E* e J C S* due linguaggi regolari. Proviamo che: 

(a) K = / U J e regolare, 

(b) T = I Pi J e regolare, 

(c) H = I ■ J e regolare. 

Sia A =< Qj,qQ,5i, Fj > un automa deterministico che riconosce / e B =< Qj,qQ,5j,Fj > 
un automa deterministico che riconosce J e B =< Qj,qQ,5j,Fj > un automa deterministico 
che riconosce J 
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(a) Costruiamo un nuovo automa C =< Qj x Qj, (q^, (?o), <5c, Fc > tale che: 

V(?,p) eQjx Qi, 

Va G S 5 c ((g,p),a) = (5i(q,a),5j(p,a)), 

Fc = {(q,p) S Qj x Q; | g G oppure p G Fj}. 

(b) Costruiamo un nuovo automa D =< Qj x Qj, (og , q^), Sd, Fj> > tale che: 

V(g,p) £ Qj x Qi , 

Va G S <5 D ((o,p),a) = a), <5j(p, a)), 

= {(g,p) G Qj x Qj I g G Ff e p G Fj}. 
Si verifica che D riconosce T e quindi anche T e un linguaggio regolare. 

(c) H = {w G E* | 3x G I e y G J : u> = xy} 

Costruiamo un nuovo automa a stati finiti non deterministico E =< QjUQi, q^, Se, Fe > 
che riconosca H. 



i. Permette ad E di agire come A per un segmento iniziale dell'input. 

ii. Permette ad E di continuare la simulazione di A oppure permette di individuare 
il simbolo di inizio di una parola appartenente al linguaggio J, assicurandosi che il 
simbolo precedente completi una parola del linguaggio 1. 

iii. Permette solo la simulazione di B dopo che E ha verificato che la parola del linguaggio 
J e iniziata. 



Si nota che E riconosce H e quindi H e regolare. 

3. Se L C e regolare allora L* e regolare. 

Sia A =< Q,qo,S,F > un automa deterministico che riconosce L. Definiamo l'automa non 
deterministico B =< Qb,Qq ,Sb,Fb > ■ 



S E (q,a) 



'{Si(q,a)} se q G Qj - Fj 

< {Si(q,a),6j(q$,a)} se q G Fj 
^{Sj(q,a)} se q G Qj 



(0 

(it) 

(iii) 




Fj se q$ £ Fj 

Fj U Fj altrimenti 




Si verifica che B riconosce L*. 
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3.7 Teorema di Kleene 

II teorema di Kleene mette in relazione i linguaggi regolari con le operazioni razionali di E*. Ri- 
cordiamo che le operazioni razionali sui sottoinsiemi di E* sono le operazioni di unione, prodotto 
e * (detta anche chiusura di Kleene) definite nel primo capitolo. Queste operazioni permettono di 
definire particolari espressioni chiamate espressioni regolari su un dato alfabeto E. Queste sono 
definite formalmente nel modo seguente: 

1. La parola vuota e e un'espressione regolare, 

2. Un qualsiasi simbolo a £ E e un'espressione regolare, 

3. Se a e (3 sono espressioni regolari allora anche (a U ft), (a ■ (3), a* sono espressioni regolari. 

Data un'espressione regolare E su E esiste un solo linguaggio C E* rappresentato da E in 
modo ovvio. II teorema di Kleene afferma che un linguaggio L C E* e regolare se e solo se L 
rappresentabile da un'espressione regolare su E. In altre parole un linguaggio L C E* e regolare 
se e solo se L si puo ottenere dagli insiemi finiti in E* usando le operazioni unione, prodotto e *. 
Questo significa che la classe dei linguaggi regolari su E e la piu piccola classe di linguaggi su E 
contenente i linguaggi finiti e chiusa rispetto alle operazioni razionali. 

Teorema 3.13 Per ogni linguaggio L C E*, L e regolare se e solo se L e rappresentabile da 
un'espressione regolare su E. 

Dimostrazione. 

1. Dobbiamo dimostrare che se E e un'espressione regolare allora \\E\\ e regolare. 
Se E = e allora l'automa definite nella seguente figura riconosce il linguaggio 




z 



Se E = a con a € E, il seguente automa riconosce il proprio {a} 




Vbel 
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In fine, se E±,E2 sono espressioni regolari e Al, A2 sono gli automi a stati finiti che riconoscono 
|| -Ei ||, II-E2II allora, per un teorema dimostrato nella sezione precedente, esiste B automa a 
stati finiti che riconosce H-EiH U ||^2||- Quindi E = {E\ U E2) rappresenta un linguaggio ||£7|| 
riconosciuto da B e di conseguenza regolare. Inoltre esistono gli automi C e D che riconoscono 
rispettivamente H-E2II ■ \\E2W e 1 1 £^1 1 1 * e quindi F = {E\ ■ E2) e G = E* rappresentano linguaggi 
regolari. 

2. Se L C T,* e riconosciuto da un automa a stati finiti (deterministico) allora esiste un'espres- 
sione regolare E tale che L = \\E\\. Consideriamo A =< Q,q\,5,F > automa a stati finiti 
deterministico che riconosce il linguaggio L. L'insieme Q sia formato dagli stati q±, (72, . . . , q m - 
Ora per ogni i, j, k = 1, 2, . . . , m definiamo: 

R-ij = {x £ T, \ 5(qi, x) = qj con stati intermedi q r tali che r < k}. 




n,*2, ■ --,ik <k 

Ad esempio = {a G S* | S(qi,a) = qj} rappresenta il passaggio diretto da % a g^, senza 
passare per stati intermedi. 





Quindi L = \J 



Ora dobbiamo provare che Rfj e rappresentato da un'espressione regolare per ogni i,j,k. 
Ragioniamo per induzione su k = 0,1,..., m; con k = la proprieta e banalmente vera 
per tutti gli insiemi R^-. Supponiamo k > 1 e assumiamo che Z2[- sia rappresentata da 
un'espressione regolare per ogni r = 0,l,...,/c — 1. Si verifica che 



nk 



R 



■f 1 u 



jjk—l p< 



fc-l> 





qi 



qk 
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Di conseguenza anche Rfj e rappresentabile da un'espressione regolare e quindi anche il 
linguaggio 

L= |J R? y 

qj eF 
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4 Linguaggi liberi da contesto 

Una Grammatica libera da contesto e una quartupla G =< V, S, S 1 , P > dove Veun insieme finite- di 
variabili (simboli non terminali), Seun insieme finite- di simboli terminali (alfabeto finite-), S £ V e 
chiamato simbolo iniziale della grammatica ePeun insieme finito di produzioni della forma A — > /3 
con i G V,(3e (EU y + ) e con eventualmente la produzione S 1 — »■ s (se succede questo, 5 non 
compare mai nella parte destra di alcuna produzione in P). 

Esempio. Definiamo la grammatica G =< {S}, {(,)}, S, {S — > e,S — > (5) 5} > tale che il 

corrispondente linguaggio generato sia l'insieme di tutte le parole formate da parentesi correttamente 
innestate e proviamo ad esempio a derivare la parola ( )(( )). Possiamo ottenerla con i seguenti 
passaggi: 

5 ^ G (S)S ^ G OS ^ G 0(S)S ^ G Q((S)S)S ^ G ()(())- 

Trasformiamo ora la grammatica G in una grammatica Gl libera da contesto. Per far cio dobbiamo 
modificare le produzioni di G afhnche S non compaia mai nelle parte destra. Per generare tutte le 
possibili parole del linguaggio possiamo ad esempio usare le seguenti produzioni: 

S -► (A) A, S -"►(),£ -»• ()A S — > (A), S —> e,A—> (A) A, A (), A ->■ ()A, A -► (A) 

equindi G\ =< {S, A}, {(, )}, S,P > 
P = {S^ (A) A, S - (), S - ()A 5 - (A, ^ - e, A - (AA A - (), A - QA, A - (A) 



4.1 Forma normale di Chomsky 

Definizione 4.1 C/na grammatica libera da contesto G =< V,T,,S,P > e in forma normale di 
Chomsky se ogni produzione in P e del tipo A — ► a oppure A — > BC con a G S A, B,C £ V . 

Vogliamo dimostrare che per ogni grammatica libera da contesto G esiste una grammatica(libero 
da contesto) in forma normale di Chomsky che genera lo stesso linguaggio. 
Esempio. Consideriamo L = {x G {a, 6} + : \x\ a = \x\b} e sia 

G =< {A, B, S}, {a, b}, S, {S ->■ aB, S -► 6A, A -► a, A -► aS, A -► 6 A A, B 6, B -^bS,B ->■ a£B} > 

Tale grammatica non e una grammatica in forma normale di Chomsky perche solo le produzioni 
A — > a, -B — > b soddisfano la definizione data. 

Mostriamo come si puo ottenere la un'altra grammatica in forma normale di Chomsky che genera lo 
stesso linguaggio L. Aggiungiamo due nuove variabili C,D e consideriamo l'insieme di produzioni 

{C ^ a,D ^ b,S ^ CB, S — > DA, A — > CS, 5 -► £>5, A -► a, 5 -► 6} 

Tale insieme simula le produzioni 

S ^ aB,S ^bA,A^ a,A^ aS,A^ bAA, B -+b,B ^bS,B -► aB£ 

Dobbiamo ora trovare il modo di simulare le produzioni A — > bAA, B — > aBB. A tale scopo 
introduciamo le variabili F e G e aggiungiamo alPinsieme precedente le produzioni 

£7 -► L>A F -f CB, A^ EA,B ^ FB 
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Quindi la nuova grammatica G\ in forma normale di Chomsky sara: 

Gi =< {S, A, B, C, D, E, F}, {a, b}, S, Pi > dove 
Pi = {A—> a,B —> b,C —> a,D —> b,S —> CB, S — > DA, A — > CS, 
A^ EA,B -> DS,B -> FB, E — »■ DA, F — > Ci?} 

Cerchiamo ora di estendere questo esempio al caso generale. Supponiamo che G =< V, H,S,P > 
sia libera da contesto e che L{G) C S + . Possiamo costruire una grammatica equivalente in forma 
normale di Chomsky attraverso i seguenti passi. 

1. Eliminare tutte le variabili inutili e le relative produzioni, cioe tutte le variabili che non 
compaiono nella derivazione di qualche parola uj a partire da S, 

2. Eliminare tutte le produzioni unitarie, cioe quelle della forma A — ► B, A, B G V. Esiste un 
algoritmo per calcolare su input A £ V, l'insieme delle variabili {B £ V \ A B} 

begin 

V = {A} 
repeat 

U = V 

for B G U do 

for B -► C G P do 

if C i V then V = V U {C} 

until V = U 

end 



Mettiamo in R{A -> a G P \ a £ V} 
repeat 

T = R 

for A,B € V(A / B) do 
if A B then 

for B -> [3 G T do 

until T = R 



3. Modificare la grammatica in modo da avere solo produzioni della forma A — > a e A — > a con 
ie^aeSeaGr con |a| > 2. 

Inseriamo nella grammatica tutte le produzione del tipo R a — ► a. Sostituiamo tutte le 
produzioni del tipo ^4 — > a(\a\ > 2) con A — ► a'. 

4. Eliminare le produzioni della forma A —> a con A £ V, a £ V* \a\ > 3. 

5. ^4 — > B1-B2 . . . .Bfc con A; > 3, Ai, B\,. . . B k variabili definiamo • • • -Dfc-2 e le produzioni 
A — > B\D\,D\ — > B<iDi,D<i — > B3D3, . . . , D k _2 — ► B k _\B k . Sostituiamo ogni produzione 
^4 — > B1B2 ■ ■ ■ Bk con A; > 3 e A\, B\, . . . B k variabili con le produzioni A — ► B\D\,D\ — > 
B2D2, D 2 — > . . . , — ► B k _iB k . 

Esempio. La produzione A -> BCEF diventa ^4 -> BDi L>i -> CL> 2 £>2 -> -E-F 
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4.1.1 Eliminazione delle variabili inutili 



Questo passo e basato sul seguente risulatato. 



Lemma 4.2 Esiste un algoritmo per il seguente problema: 



INPUT: G =< V,Z,S,P> 
(grammatica libera da contesto) 




Dimostrazione. L 'algoritmo che descriviamo e basato sulla seguente osservazione: 
Supponiamo che esista u G £* tale che S «; e consideriamo un albero di derivazione per uj. 
Se tale albero possiede due nodi etichettati con la stessa variabile A £ V lungo un cammino dalla 
radice a una foglia allora si puo modificare l'albero di derivazione nel modo indicato in figura, cioe 
sostituendo il sottoalbero piu grande di radice A con quello piu piccolo. 



Possiamo ripetere questa operazione per tutte le coppie di nodi che hanno la stessa etichetta e 
si trovano in un cammino dalla radice alia foglia. Otteniamo cosi un albero di derivazione di altezza 
al piu pari al numero di variabili. Di conseguenza 1' algoritmo per risolvere il problema, esegue i 
seguenti passi: 

1. Genera tutti gli alberi di derivazione in G che hanno per altezza il numero di variabili #V, 

2. Controlla se tra questi ne esiste uno le cui foglie sono tutte etichettate da simboli terminali. 
In caso affermativo restituisci 1 altrimenti restituisci 0. 

Proposizione 4.3 Per ogni grammatica G =< V,H,S,P > libera da contesto tale che L(G) / 0, 
esiste una grammatica F libera da contesto e priva di simboli inutili tale che L(F) = L{G). 

Dimostrazione. Usando il lemma precedente possiamo calcolare l'insieme 




R = {A G V | 3w G £* : A w} 
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Di conseguenza definiamo l'insieme 

T = {A —>a£P\A£R, a contiene solo variabili in R e simboli in £ } 

e le grammatica H =< R, S, S, T >. Si verifica facilmente che L(G) = L(H). 
Calcolo l'insieme 

U = {A G R | S ^>* H aA/3 per qualche a, 0} 
Tale insieme e ottenuto dalla seguente procedura: 
begin 

U={S} 
repeat 

V = U 

for A G U do 

for A -> a G T do 
for B G R in a do 
V = V U {B} 

until V = U 
return U 

end 

Definiamo quindi l'insieme 

W = {A -^a^T\A^U, a contiene solo variabili in U} 

e la grammatica F =< U, S, S, W >. Si verifica di nuovo che L(F) = L(H) e inoltre F possiede 
solo variabili utili. 



4.1.2 Eliminazione delle produzioni unitarie 

Questo passo e basato sulla seguente proprieta. 

Proposizione 4.4 Per ogni grammatica libera da contesto G =< V, S, S, P > esiste una grammat- 
ica libera da contesto G' che genera lo stesso linguaggio privo di produzioni della forma A — > B 
dove A e B sono 2 variabili. 

Dimostrazione. Esiste un algoritmo per calcolare su input A £ V, l'insieme delle produzioni 
{B G V : A =>* G B} 

begin 

V = {A} 
repeat 

U = V 

for B G U do 

for B^C G P do 

if C i V then V = V U {C} 

until V = U 
return U 

end 
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Possiamo cosi definire la seguente procedural 
repeat 

R = {A^aeP :aiV] 
T = R 

for A, Be V(A + B) do 
if A => G B then 

for B -» f3 G T do 
i? = 5 U {,4 ^ 5} 

until T = R 
return R 



4.1.3 Costruzione della grammatica in forma normale di Chomsky 

Gli ultimi due passi del procedimento di costruzione della forma normale di Chomsky, possono 
essere descritte nel modo seguente. 

Supponiamo di avere una grammatica libera da contesto G =< V, E, S, P >, priva di variabili inutili 
e di produzioni unitarie (ottenuta cosi attraverso i due passi precedenti). Allora per ogni a € E 
definiamo una nuova variabile R a e una nuova produzione R a — > a. Per ogni produzione A ^ a (con 
a G (y U E) + : |a| > 2) definiamo ol ottenuto da a sostituendo tutte le occorrenze di un simbolo 
terminale a € E con la variabile R a . Ad esempio la produzione A — > aBbCCDd diventa A — > 
RaBRfjCCDRd . Inseriamo nella grammatica tutte le produzione del tipo R a — > a. Sostituiamo 
tutte le produzioni del tipo ^4 —> a(|a| > 2) con ^4 — ► a'. Abbiamo cosi ottenuto una nuova 
grammatica G' equivalente a G che possiede solo produzioni del tipo i^aei^a con a stringa 
di variabili di lunghezza > 2 . Eliminiamo ora le produzioni A — > a con \a\ > 3 . Consideriamo 
una produzione del tipo A — ► B\B 2 . . . B k con k > 3,A±,Bi,... B k variabili. Definiamo le nuove 
variabili D\E) 2 . ■ ■ D k _ 2 e le produzioni A — > B\D\,Di — > B2D2, £> 2 — ► 5 3 D 3 , • • ■ , -Dfc-2 — ► B k -iB k . 
Sostituiamo la produzione A — > B1B2 ■ ■ ■ B k con le produzioni A — > B\D\,D\ — > B 2 D2^E>2 — > 
. . . , .Dfc_2 — > Bk~iB k . Ad esempio la produzione ^4 — ► BCEF puo essere simulata dalle 
produzioni A -» BD 1 ,D 1 -► CD 2 , D 2 ^ EF . 

4.2 Derivazioni leftmost 

Una derivazione 5 =^g a i =^C7 «2 =^G • • • =^G ct n in una grammatica libera da contesto G =< 
V, S,5, P > con ctj G (y U E)* per ogni i = l...n si dice di tipo leftmost, se per ogni i = 
1, . . . ,n — 1, OLi ccj+i si ottiene applicando una produzione alia prima variabile a sinistra di 
Oli ■ 

Esempio. Dato il seguente insieme di produzioni 

S aAB, A -► 55C, 5 BA, 5 6c, A -► 55, C c 

applicando derivazioni di tipo leftmost ottengo 

S =^ a^!5 aBBCB abcBCB abcbcCB =^ abcbccB abcbccb 

Osservazione . Esiste una corrispondenza biunivoca tra alberi di derivazione e derivazioni 
leftmost; infatti, dato un albero di derivazione, si puo costruire una sola derivazione leftmost che 
rappresenta l'albero. 
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Proposizione 4.5 In ogni grammatica libera da contesto G =< V, T,,S,P > una parola a £ (V U 
S) + pud essere derivata da S se e solo se esiste una derivazione leftmost S =>q a 

Dimostrazione. 

• proprieta e ovvia perche una derivazione leftmost e una particolare derivazione, 

• e sumciente riordinare i singoli passi delle derivazioni in modo da ottenere una derivazione di 
tipo leftmost 



Prende il nome dalle iniziali dei suoi creatori: Cocke, Young, Kasami e risolve il problema di 
determinare l'appartenenza di una parola ad un linguaggio libera da contesto generato da una 
grammatica in forma normale di Chomsky. 

Ricordiamo che se L C £* e libera da contesto, esiste una grammatica libera da contesto G =< 
V,T,,S,P > in forma normale di Chomsky (ossia con produzioni del tipo A — > a, A — > BC) che 
genera L. Consideriamo la grammatica G =< V,Y,,S,P > in C.N.F. L'algoritmo CYK risolve il 
seguente problema: 



E' un algoritmo basato sul metodo della programmazione dinamica, ossia a fronte di un problema, 
l'algoritmo lo spezza in piu sottoproblemi che pero sono dipendenti l'uno dall'altro: per risolverli si 
sfruttano le dipendenze presenti tra essi e si memorizzano i risultati parziali in una matrice di valori. 
Per risolvere il problema devo determinare questo insieme di variabili U\ n = {A £ V : A x}. 
Definiamo x = a±a2 ■ ■ ■ a n dove ogni G S. L'algoritmo calcola tutti gli insiemi = {A £ V : 
A =>q ajOj+i . . . aj}, con 1 < i < j < n. 

Vediamo per esempio come calcolare U\ n . E' chiaro che A £ U\ n se e solo se esiste A — > BC in P 
ed esiste K £ {1, . . . ,n — 1} tale che B £ U\\. e C £ Uk+\ n . Infatti la derivazione A ajaj + i . . .aj 
e rappresentata da un albero della forma 



4.3 Algoritmo CYK 



Problema Appartenenza (G =< V, S, S, P >) 



INPUT: x £ £* 




se S x 
altrimenti 
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Per costruire Ui n , una volta noti gli insiemi Un, U2 n , U±2, U% n , . . . , U± n -i, U nn , posso eseguire il 
seguente ciclo di istruzioni: 

T = {0} 

for k = 1, . . . , n-1 do 
for A -> BC G P do 

if B € Uik AND C G U k+Vn then 

T = T U {A} (se A e' gia' presente non lo aggiungo) 

return T 

Osserviamo inoltre che gli insiemi Un,U22, ^33, • • • , U nn sono formati solo da variabili che derivano 
un simbolo terminale e possono essere facilmente calcolati dalla grammatica: per ogni i,j con 
i < j, Uij puo essere calcolato da Uik e Uk+ij con k = i, . . . ,j — 1 usando un procedimento simile a 
quello illustrato sopra per calcolare Ui n . 
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L'algoritmo e allora descritto dalla seguente procedura. 
begin 

for i = 1, . . . , n do Uu = {A G V : A -> a, G P} 
for d = 1, . . . , n-1 do (creo un ciclo sulla distanza crescente tra i e j) 
for i = 1 , . . . , n-d do 
j = i + d 

Uij = 

for k = i, i+1, . . . , j-1 do 
for A -> BC G P do 

if £ € U ik AND C G U k+ ij then 

Uij = U i:j U {A} 

if S G Ui n then return 1 
else return 

end 

Proposizione 4.6 Per ogni linguaggio libero da contesto L, l'algoritmo CYK su un input di lunghez- 
za n richiede un tempo di calcolo che e dell'ordine di grandezza di n 3 e uno spazio di memoria 
dell'ordine di n 2 . 



4.4 Lemma d'iterazione. 



Prima di enunciarlo nella nuova forma, valida per le grammatiche libere da contesto, introduciamo 
una proprieta delle altezze degli alberi binari che ci tornera utile per fame la dimostrazione. 

Lemma 4.7 sull'altezza degli alberi binari. In ogni albero binario T con k foglie, Valtezza delValbero 
h(T) > \log 2 k] 
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Sia T un albero binario con n foglie e supponiamo che la radice abbia due figli (fig. 28). Indipen- 
dentemente dal fatto che T sia o meno bilanciato, la sua altezza h(T) e data dalla piu grande delle 
altezze calcolata fra i suoi due sottoalberi A, B incrementata di uno, cioe: 

h{T) = 1 + Max{h(A), h(B)} 

Per ipotesi induttiva sappiamo che h(A) > |~log 2 K] e che h(B) > [~log 2 (n — fe)]. Abbiamo poi n 
nodi da dividere tra i due sottoalberi A e B; questo significa che o A o B avra almeno ^ nodi e 
quindi sostituendo nella precedente formula: 

Tl 

h(T) = 1 + Max{h(A), h(B)} > 1 + [log 2 -] ovvero h(T) > [log 2 n] 

Abbiamo cosi dimostrato il lemma sulle altezze degli alberi binari. 

Consideriamo ora una grammatica G =< V, S, S, P > libera da contesto scritta in forma normale 
di Chomsky e definiamo il linguaggio generato L = L{G) con L C E*. L'albero di derivazione D 
della parola x = x\X2 ■ ■ ■ x n -\x n generata dalla grammatica G in CNF, e un albero binario e quindi 
verifica la proprieta enunciata nel lemma precedente, ovvero h(D) > [log 2 n\ . 
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A questo punto notiamo che se la parola e sufficientemente lunga da avere |~log 2 \x\~\ > #V (numero 
di variabili), per il lemma precedente, avremo sicuramente un cammino che unisce una foglia con la 
radice dell'albero passante per due nodi etichettati con la stessa variabile, A € V. I due nodi sono 
radici di sotto-alberi uno incluso nell'altro, e quindi la parola x pud essere separata in cinque fattori 
u, v, w, y, z con x = uvwyz, definiti dalla seguente figura: 




U V W y Z 



Quindi se nell'albero di derivazione sostituiamo al sotto-albero che genera w, il sotto-albero che 
genera vwy, produciamo la parola uv 2 wy 2 z. Se eseguo n successive sostituzioni come la precedente, 
produco n identiche iterazioni dei fattori v, y all'interno della parola x, nel pieno rispetto delle regole 
di produzione della grammatica G libera da contesto. Formalizziamo ora quanto detto nel seguente 
lemma. 

Lemma 4.8 (lemma di iterazione per i linguaggi liberi da contesto). 
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Data una grammatica G < V,T,, S, P > libera da contesto e definite- il linguaggio L = L(G), esiste 
un N > intero, tale che per ogni x £ L con \x\ > N, esistono cinque parole u,v,w,y,z G X* 
dotate delle seguenti proprieta: 

• x = u v w y z, 

• | v w y | < N, 

• v y + e, 

• per ogni n £ N uv n wy n z G L . 

Dimostrazione. Cerchiamo allora un N che soddisfi le quattro proprieta sopra elencate. 
Sia N = 2& v . Per il lemma sulle altezze degli alberi binari, l'albero di derivazione che genera una 
parola di lunghezza TV, sarebbe alto h > #V, cioe avremmo sicuramente due nodi in un cammino 
che unisce una foglia alia radice etichettati con la stessa variabile. Tale coppia di nodi spezza la 
parola x in 5 fattori u, v, w, y, z, come mostrato nella figura precedente. Partendo dal valore di N, 
dimostriamo le quattro proprieta sopra elencate. 

1. Ovvia. 

2. Consideriamo un cammino di lunghezza h dalla radice a una foglia e percorriamo il cammino 
in senso inverso (cioe dalla foglia alia radice). In questo percorso scegliamo i primi due nodi 
che hanno la stessa etichetta. Quindi l'albero che ha per radice il secondo nodo ha un'altezza 
pari al piu al numero di variabili #V. Di conseguenza le parole generate da tale sottoalbero, 
sono lunghe al piu = N. Poiche tale parola coincide proprio con vwy, la proparieta 2) e 
dimostrata. 

3. Considerando che ci sono due variabili A nel cammino dalla foglia alia radice, e trovandoci 
in un albero binario (CNF), entrambe le variabili A, produrranno almeno un figlio, quindi le 
produzioni v e y non potranno essere entrambe nulle. 

4. E sufficiente ripetere le produzioni come in figura, per mantenere inalterate le sottoparole u 
w z e far ciclare v, y dello stesso numero di volte. 




vwy 
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4.5 Automa a pila 



Nel terzo capitolo di questa dispensa, abbiamo definito gli automi a stati finiti come particolari 
sistemi in grado di riconoscere i linguaggi regolari. Quello che ora definiamo, e un particolare 
automa, detto automa a pila, capace di riconoscere i linguaggi liberi da contesto. Prima di descrivere 
formalmente il nuovo automa, ricordiamo cos'e una pila. 

Una pila e una particolare struttura dati, defini- 
ta da una lista di record e dalle operazioni di 
lettura, inserimento e cancellazione Top, Push e 
Pop. Queste operazioni vengono eseguite solo ad 
una estremita della lista di record che per comod- 
ita viene chiamata cima della pila. Intuitivamente 
una pila rappresenta una memoria potenzialmente 
illimitata con vincoli particolari che regolano l'ac- 
cesso alle informazioni, l'inserimento e la cancel- 
lazione dei dati. Per esempio, volendo accedere 
ad un record B che non si trova sulla cima della 
pila, devo prima eliminare ad uno ad uno, tutti i 
record collocati sopra B. 

N astro di input 



A 



B 



cirna della 
pila 



■* 


il 


:• 


: 


f: 


i: 





















Q 

6 






A 






A 


Pila 


B 


B 





Intuitivamente un automa a pila e un modello di 
calcolo costituito da un insieme finito di stati, un 
nastro di ingresso suddiviso in celle, una testina 
di lettura del nastro e una pila. Su un dato in- 
put, la macchina puo eseguire una sequenza di 
mosse ciascuna delle quali dipende dal simbolo let- 
to dalla testina di lettura, dallo stato corrente e 
dal simbolo che si trova in cima alia pila. 



Le mosse che l'automa puo fare sono due: mosse tradizionali ed e-mosse. In una mossa tradizionale, 
l'automa entra in un nuovo stato, sposta la testina di lettura di una posizione a destra e modifica 
la cima della pila sostituendo il simbolo corrente con una stringa di simboli (eventualmente vuota). 
Nella e-mossa, l'automa non muove la testina di lettura ma puo solo modificare la cima della pila e 
lo stato corrente. Come per l'automa a stati finiti, anche per l'automa a pila possiamo definire una 
versione deterministica e una non deterministica. 

Definizione 4.9 Un automa a pila su un alfabeto S e una sestupla M =< Q, qo,T, Z,S, F > dove: 

• Q e un insieme finito di stati, 

• Qo £ Q e lo stato iniziale, 
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• F C Q e Vinsieme degli stati finali, 

• T e I'alfabeto dalla pila, 

• Z G T e im simbolo particolare detto simbolo iniziale della pila, 

• 5 e la funzione di transizione che rappresenta le mosse della macchina. II risultato di una 
mossa e rappresentato da uno stato e da una stringa di simboli che viene inserita in cima alia 
pila al posto del simbolo corrente. 



con PF{Q x r*) indichiamo Vinsieme delle parti finite di (Q x r*). Osserviamo infatti che 
T* contiene infinite stringhe. 

Per ogni q G Q, per ogni ieTe ogni a G S , l'insieme a, A) definisce l'insieme delle possibili 
mosse tradizionali della macchina quando questa si trova nello stato q, legge a sul nastro di ingresso 
e il simbolo A si trova in cima alia pila. Se 



per ogni i = 1, . . . , k, l'automa puo entrare nello stato qi e sostituire A con la stringa ft in cima alia 
pila, muovendo quindi la testina di lettura di una posizione a destra. Analogamente, per ogni q G Q, 
e ogni A G T,S(q,e,A) definisce l'insieme delle e-mosse che la macchina puo compiere trovandosi 
nello stato q e leggendo il simbolo A in cima alia pila. Tali mosse non dipendono dal simbolo letto 
sul nastro d'ingresso. Se S(q, e, A) = {(Pi, 71), (P2, 72), ... , (Pk, Ik)}, allora per ogni i = 1, . . . , k, la 
macchina puo entrare nello stato pi e sostituire il simbolo A con la stinga ft in cima alia pila. 
Esistono due criteri di riconoscimento per gli automi a pila: per stato finale o per svuotamento 
della pila. Nel primo caso l'automa accetta una parola di input quando al termine della sua let- 
tura la macchina entra in uno tato finale. Nel secondo caso quando, dopo aver letto la parola, 
l'automa svuota la pila. Per defmire questi criteri, dobbiamo formalmente introdurre la nozione di 
configurazione. 

Definizione 4.10 Configurazione (di una macchina M): e una stringa della forma q(5, dove q G Q 
rappresenta lo stato corrente e (3 G T* rappresenta la parola che si trova sulla pila. Ogni mossa 
eseguita dalla macchina, pud essere rappresentata dalle due configurazioni della macchina prima e 
dopo I'esecuzione della mossa. La configurazione iniziale e rappresentata da q$Z . 

Definiamo or a le relazioni di transizione tra configurazioni. 
Definizione 4.11 Relazione di transizione in un passo. 



Definizione 4.12 Relazione di transizione in piu passi. 

Vx G £*, Vq,p£Q, V7, /3 G T* qB(3 h^* ^7 (3 se esistono 

a±, 02, . . . , a n G £ U {e}, una catena di stati Pi, P2, . . . , P n G Q e a\, 02, . . . ,a n G T* tali che 
x = a\a 2 ■■■a n e piOti p i+ ia i+ i per ogni i = 1, . . . ,n - 1 con q = pi,p = p n ,f3 = 01,7 = a n 
Siamo in grado di definire allora il linguaggio riconosciuto dall'automa a pila in due modi: 



(5:QxSu{e}xr^ PF(Q x r*) 



6(q,a,A) = {(q 1 , ft), (q 2 , /3 2 ), . . . , (qk, Pk)} 




se (p, 7) G 6(q, a, B) 
se (p, 7) G 6(q, e, B) 
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1. L(M) = {xe £*/3p S F, 37 G T* : ^m*P7} 

L(M) rappresenta il linguaggio accettato riconosciuto da M mediante stato finale; 

2. N(M) = {x€ Z*/3p eQ:q Z \~ x M *pe} 

N(M) rappresenta il linguaggio accettato da M mediante svuotamento della pila. 

Esempio. Sia dato il linguaggio L = {x G {a, b, c} : x = wcw R dove w 6 {a, 6}*}. 
Qui denotiamo con w R la parola inversa della stringa w; per esempio se w = abbab allora w R = babba. 
Definiamo l'automa M ponendo Q = {qi,q 2 },T = {A,B,Z} e assumiamo che q\ e Z siano gli 
elementi iniziali dell'automa. Definiamo: 

5( qi ,a,Z) = {( qi ,AZ)}, 5(q 1 ,b,Z) = {(q 1 ,BZ)}, 5( gi , c, Z) = {( gi , e)}, 

%i, a, A) = {( qi ,AA)}, S( qi ,a, B) = {(qi,AB)}, 6( qi ,b, A) = {( qi ,BA)}, 

S( qi ,b,B) = {( qi ,BA)}, S( qi ,c,A) = {(q 2 ,A)}, 5( qi ,c,B) = {(q 2 ,B)}, 

5(q 2 ,a,A) = {(q 2 ,e)}, 5(q 2 , b, B) = {(q 2 , e)}, S(q 2 , e, Z) = {(q 2 , e)}. 

Ogni altro insieme 8(q,T l ,X) e vuoto. 

Consideriamo l'input x = babacabab e analizziamo le transizioni dell'automa: 

qiZY- h A qiBZh a A q\ABZ \-\ q\BABZ Y~ a A q\ABABZ h c A q 2 ABABZY~ a A 
q 2 BABZY-\ q 2 ABZV\ q 2 BZV-\ q 2 Z V e A q 2 

Di conseguenza x e accettato dalla macchina per pila vuota. Si puo verificare che L = L(M). 
Esempio. Sia dato il linguaggio L = {x G {a, 6} : x = ww R dove w G {a, b}*} 

M=< {q,p},q,{A,B,Z},Z,5,®> 
Transizioni dallo stato iniziale 



8(q, a, Z) = {(q, AZ), (p, AZ)} S(q, b, Z) = {(q, BZ), (p, BZ)} S(q, e, Z) = {(p, e)} 
5(q, a, A) = {(q, AA), (p, A A)} 6(q, a, B) = {(q, AB), (p, AB)} S(q, b, A) = {(q, BA), (p, BA)} 
6(q,b,B) = {(q,BB),(p,BB)} 5(q,a, A) = {(p,e)} %, 6, B) = {(p, e)} %, a, Z) = {(p, e)} 



Mostriamo come funziona la macchina, su una stringa particolare x = abba. Rappresentiamo il 
calcolo tramite l'albero di computazione. 
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Osservazione. Negli esempi appena visti, si nota che l'automa che riconosce il linguaggio 
L = {x G {a, b,c} : x = wcw R dove w G {a, b}*} si comporta in modo deterministico, in quanto 
la macchina inizia a svuotare la pila quando legge il simbolo c, viceversa l'automa che riconosce il 
linguaggio L = {x G {a, 6} : x = ww R dove w G {a, b}*} non si comporta in modo deterministico 
proprio perche non e in grado di decidere quando deve iniziare a svuotare la pila. 



4.5.1 Automi a pila deterministici 

L'automa a pila M =< Q,qo,T, Z,5, F > e deterministico se: 

1. Va G S,Vg G Q,V5 G T 
5(q,e,B)^$ implica 5(q,a,B)=$, 

2. V6G SU{e},VgG Q,VAgT 

S(q, a, B) contiene al piu un elemento di Q x r*. 
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Esempio. Sia dato il linguaggio 

D = {x G {(, ), $}* : x = y$, con y € {(, )}* che e una stringa di parentesi correttamente innestate}. 
Definiamo le transizioni: 
. 5( q ,$,Z) = {(p,Z)}, 

. = {( g , A, ^)}, 

. S(q,(,A) = {(q,AA)}, 
. %,),A) = {(g,e)}. 

E' facile verificare che il linguaggio D e riconosciuto da un automa a pila deterministico mediante 
stato finale. 

Proposizione 4.13 La classe dei linguaggi 

D = {L C S* : L = L(M), M automa a pila deterministico} 
e propriamente contenuta nella classe 

N = {L C S* : L = L(M), M automa a pila non deterministico} 
ovvero D e strettamente contenuto N. 

Proposizione 4.14 Se un linguaggio L C verifica la condizione L = L(M), allora esiste un 
automa a pila V tale che L = N(V). Viceversa, se L = N(M) per qualche automa a pila M, allora 
esiste un altro automa a pila V tale che L = L(V). 

Proposizione 4.15 Un linguaggio L C S* e libero da contesto se e solo se esiste un automa a pila 
M (non deterministico) tale che L = N(V) . 

La dimostrazione di questo teorema e basata sulla forma normale di Greibach. 



